#Attention Residuals | 熱門關鍵字 | 鉅亨號

17歲高中生，以一作身份，在Kimi團隊把Ilya提出的設想，變成了現實。Ilya之前有個預言，把按時間先後順序處理資料的LSTM網路“旋轉90度”，也就是把時間軸換成模型深度軸，就變成了現在的殘差網路。Kimi團隊認為，既然時間上的LSTM能對應深度上的殘差，那後來淘汰了LSTM的“注意力機制”自然也可以照做。他們新搞出的Attention Residuals技術，就相當於把注意力機制也“旋轉了90度”。用了這套新方法後，模型在計算當前層時可以聰明地“回頭看”，根據需要自由決定去提取前面那一層的資訊。這篇論文讓馬斯克也來圍觀，表示令人印象深刻。除了馬斯克，這篇論文也引發了大神Karpathy的思考，直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。這種新機制放到Kimi自家的Kimi Linear 48B大模型（3B啟動參數）上驗證，訓練效率提升25%，推理延遲增加不到2%。殘差連接的“記憶負擔”先回顧一下殘差連接的工作原理。傳統做法是：第N層的輸出 = 第N層的計算結果 + 第N-1層的輸出。這樣一路累加下去，每一層都能“記住”前面所有層的資訊。問題來了，在大模型PreNorm主流範式下，殘差連接中所有層的貢獻都是等權累加。就像一個“記憶力太好的人”，把所有經歷都以相同權重存進大腦。貢獻被逐步稀釋，早期資訊難以檢索，且大量層可被剪枝而損失微小，稱之為“PreNorm dilution problem”。更麻煩的是，隱藏狀態的范數會隨著深度不斷增長。研究人員發現，在深層網路中，這種unbounded growth會導致訓練不穩定。月之暗麵糰隊換了個思路：既然問題出在“無差別累加”，那就讓網路自己決定該回憶什麼。用注意力“選擇性回憶”團隊觀察到一個有趣的對偶性：網路的深度維度和序列的時間維度，本質上是同構的。在Transformer處理序列時，用注意力機制讓當前位置“選擇性關注”之前的位置。那麼在深度維度上，為什麼不能讓當前層“選擇性關注”之前的層？Attention Residuals就這麼來的：當前層的可學習偽查詢向量作為query（learnable pseudo-query）所有前層的輸出作為key和value用注意力機制加權聚合這樣一來，網路可以學會那些層的資訊對當前計算最重要，就多關注一點；不相關的層，權重自然降低。但這帶來一個新問題：計算量爆炸。如果一個100層的網路，每一層都要對前面99層做full attention residual，複雜度是O(L²)，根本跑不動。Block AttnRes：分塊壓縮論文中的解決方案是Block AttnRes。核心思想是把連續的若干層打包成一個block，對block內部的輸出做壓縮，只保留一個“摘要向量”。具體操作如下：把L層網路分成B個block，每個block包含若干層每個block結束時，把block內的資訊壓縮成單個向量後續層做attention時，只需要關注塊間表徵+塊內即時層輸出，而非全部L個層這樣一來，attention的複雜度從O(L²)降到了O(L·B)，在實踐中B可以設得很小（論文用的是8-16）。此外，團隊還做了數個工程最佳化：快取式流水線通訊、序列分片預填充、KV 快取粒度最佳化等等。Kimi Linear驗證：1.25倍效率提升理論說得通，但真正讓人信服的是大規模驗證。團隊在自家的Kimi Linear架構上做了測試。這是一個採用線性注意力的大模型，總參數48B，啟動參數3B（MoE架構）。同等計算預算下，Attention Residuals能獲得更好的下游性能；反過來說，達到相同性能需要的訓練計算量減少了約20%，相當於獲得了1.25倍的效率優勢。在具體任務上，數學推理（MATH、GSM8K）、程式碼生成（HumanEval、MBPP）均持平或略優，多語言理解的一致性也有所改善。更重要的是，Attention Residuals是一個drop-in replacement，不需要修改網路其他部分，直接替換殘差連接即可。論文裡還講到一個有意思的視角。團隊把這項工作稱為“時間-深度對偶性”（time-depth duality）的應用。在他們看來，深度神經網路的“層”和循環神經網路的“時間步”，本質上是都是對資訊的迭代處理。Transformer之所以成功，是因為用attention替代了RNN中固定的recurrence。那麼在深度維度上，是不是也該用attention替代固定的residual？17歲高中生入列共同一作更有意思的是，這篇讓馬斯克、Karpathy等人都為之一震的論文，共同一作之一是一名年僅17歲的高中生——陳廣宇（Nathan）。另外兩名共同一作，分別是Kimi的關鍵人物之一、RoPE（旋轉位置編碼）的提出者蘇神（蘇劍林），以及Kimi Linear的第一作者張宇。誠然Attention Residuals是團隊協作取得的成果，但一名高中生出現在這樣的團隊之中，還與兩位大神共列一作，已經足夠震撼。a16z創始人Marc Andreessen、Thinking Machines的聯創等人都關注了他的X帳號。一年前才剛剛開始瞭解大模型的陳廣宇，是從北京的一場駭客鬆開始，一路走向矽谷的。後來回國時，他選擇加入了Kimi。經手過月之暗面投資的奇績創壇（原YC中國）創始成員董科含，也曾在其個人公眾號上刊載過陳廣宇的一份自傳。去年二月，北京的一場中學生駭客松上，陳廣宇展示了一個關於“人類第三隻機械輔助手”的創新構想——ThirdArm。也正是這個項目，讓他結識了駭客松評委董科含，後者也成為了他的創業導師。當時，董科含追問他，未來是否會深耕這項技術，這促使他開始重新審視自己的職業方向。隨後他入選了董科含發起的只有極少數人入選的青年計畫，開始接觸IOI（國際資訊學奧林匹克）金牌得主及資深科研人員。此前他曾嘗試經營Shopify跨境電商店舖、營運短影片帳號，但經過董科含的建議，他決定轉向理解時代的底層技術。當時還不知道Transformer是什麼的他，在DeepSeek研究員袁境陽的指導下，利用Gemini作為輔助工具，通過研讀經典論文、追蹤GitHub開放原始碼專案等方式逐步建立認知。有一次他在推特上分享了對一篇部落格的反思後，獲得了作者的回覆，這篇帖子也因此引起了一家矽谷AI初創公司CEO的關注。該公司於2024年底成立，2025年初完成了800萬美元種子輪融資，資方背景涉及OpenAI與Anthropic。在通過一項限時通宵完成的實驗測試後，他拿到了對方的錄用通知。暑假期間，他前往舊金山開啟了為期七周的實習。其中前兩周，他負責定義並推進一個涉及144張H100顯示卡的探索性項目。在CEO直接指導下，他的工作延伸至營運層面，參與了招聘系統搭建、技術內容輸出及融資策略討論，並獲得與早期投資者Vinod Khosla交流的機會。在矽谷期間，他維持著高強度工作節奏，通過咖啡社交與輝達工程師及初創創始人建立聯絡。這次經歷讓他將科研視為一種支撐創造的底層能力。實習結束後，陳廣宇回到國內，並於去年11月加入月之暗面。把他吸引進去的，正是Kimi一直做的Flash Linear Attention這一類高效attention工作。實際上，正是GitHub上的FLA項目，吸引了他對機器學習的興趣並被邀請加入Kimi團隊。也正是順著這條線，他開始一路往更底層鑽，從讀論文、看實現，到研究 Triton kernel、理解attention為什麼能被這樣重寫、這樣加速。到了月之暗面，這條路也算是繞了一圈又落回原點——他最初是被底層技術吸引，最後做的也正是最底層、最核心的那部分事。相比於講一個“少年天才一路開掛”的故事，陳廣宇的經歷更像是另一種成長路徑——先被時代最前沿的技術擊中，再一步步把興趣磨成能力，把能力帶到真正的大模型研發現場裡。 (Python開發者)